The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Multi-view graph clustering (MGC) methods are increasingly being studied due to the explosion of multi-view data with graph structural information. The critical point of MGC is to better utilize the view-specific and view-common information in features and graphs of multiple views. However, existing works have an inherent limitation that they are unable to concurrently utilize the consensus graph information across multiple graphs and the view-specific feature information. To address this issue, we propose Variational Graph Generator for Multi-View Graph Clustering (VGMGC). Specifically, a novel variational graph generator is proposed to extract common information among multiple graphs. This generator infers a reliable variational consensus graph based on a priori assumption over multiple graphs. Then a simple yet effective graph encoder in conjunction with the multi-view clustering objective is presented to learn the desired graph embeddings for clustering, which embeds the inferred view-common graph and view-specific graphs together with features. Finally, theoretical results illustrate the rationality of VGMGC by analyzing the uncertainty of the inferred consensus graph with information bottleneck principle. Extensive experiments demonstrate the superior performance of our VGMGC over SOTAs.
translated by 谷歌翻译
多模式学习通过在预测过程中同样组合多个输入数据模式来重点关注培训模型。但是,这种相等的组合可能不利于预测准确性,因为不同的方式通常伴随着不同水平的不确定性。通过几种方法研究了使用这种不确定性来组合模式,但是成功有限,因为这些方法旨在处理特定的分类或细分问题,并且不能轻易地转化为其他任务,或者遭受数值的不稳定性。在本文中,我们提出了一种新的不确定性多模式学习者,该学习者通过通过跨模式随机网络预测(CRNP)测量特征密度来估计不确定性。 CRNP旨在几乎不需要适应来在不同的预测任务之间转换,同时进行稳定的培训过程。从技术角度来看,CRNP是探索随机网络预测以估算不确定性并结合多模式数据的第一种方法。对两个3D多模式医学图像分割任务和三个2D多模式计算机视觉分类任务的实验显示了CRNP的有效性,适应性和鲁棒性。此外,我们提供了有关不同融合功能和可视化的广泛讨论,以验证提出的模型。
translated by 谷歌翻译
尽管变形金刚已成功地从其语言建模起源过渡到基于图像的应用程序,但它们的二次计算复杂性仍然是一个挑战,尤其是对于密集的预测。在本文中,我们提出了一种基于内容的稀疏注意方法,以替代密集的自我注意力,旨在降低计算复杂性,同时保留对远程依赖性建模的能力。具体而言,我们聚集,然后汇总键和值代币,作为减少总代币计数的基于内容的方法。由此产生的聚类序列保留了原始信号的语义多样性,但可以以较低的计算成本进行处理。此外,我们进一步将聚类引导的注意力从单尺度扩展到多尺度,这有利于密集的预测任务。我们标记了提出的变压器体系结构固定,并证明它在各种视觉任务上实现了最新的性能,但计算成本较低,参数较少。例如,我们具有2270万参数的cluster小型模型可在Imagenet上实现83.2 \%TOP-1的精度。源代码和Imagenet模型将公开可用。
translated by 谷歌翻译
很少有学习的学习(FSL)旨在学习一个可以轻松适应新颖课程的分类器,只有几个标签的示例,限制数据使这项任务挑战深度学习。基于量子指标的方法已实现了有希望的表现基于图像级的功能。但是,这些全球特征忽略了丰富的本地和结构信息,这些信息在可见的和看不见的类之间都是可以转移和一致的。认知科学的某些研究认为,人类可以识别出具有学识渊博的新颖类。我们希望挖掘出来可以从基础类别转移和判别性表示,并采用它们以识别新的课程。建立情节训练机制,我们提出了一个原始的采矿和推理网络(PMRN),以端到端的方式学习原始感知的表示,以进行度量。基于基于FSL模型。我们首先添加自学辅助任务,迫使功能提取器学习与原始词相对应的电视模式。为了进一步挖掘并产生可转移的原始感知表示形式,我们设计了一个自适应通道组(ACG)模块,以通过增强信息通道图的同时抑制无用的通道图,从而从对象嵌入中合成一组视觉原语。基于学到的原始功能,提出了一个语义相关推理(SCR)模块来捕获它们之间的内部关系。在本文中,我们了解原始词的特定于任务的重要性,并基于特定于任务的注意力功能进行原始级别的度量。广泛的实验表明,我们的方法在六个标准基准下实现了最先进的结果。
translated by 谷歌翻译
心肌活力的评估对于患有心肌梗塞的患者的诊断和治疗管理是必不可少的,并且心肌病理学的分类是本评估的关键。这项工作定义了医学图像分析的新任务,即进行心肌病理分割(MYOPS)结合三个序列的心脏磁共振(CMR)图像,该图像首次与Mycai 2020一起在Myops挑战中提出的。挑战提供了45个配对和预对准的CMR图像,允许算法将互补信息与三个CMR序列组合到病理分割。在本文中,我们提供了挑战的详细信息,从十五个参与者的作品调查,并根据五个方面解释他们的方法,即预处理,数据增强,学习策略,模型架构和后处理。此外,我们对不同因素的结果分析了结果,以检查关键障碍和探索解决方案的潜力,以及为未来的研究提供基准。我们得出结论,虽然报告了有前途的结果,但研究仍处于早期阶段,在成功应用于诊所之前需要更深入的探索。请注意,MyOPS数据和评估工具继续通过其主页(www.sdspeople.fudan.edu.cn/zhuangxiahai/0/myops20 /)注册注册。
translated by 谷歌翻译
自我监督的学习(SSL)为更好的利用未标记的数据开辟了巨大的机会。对于缺乏注释,通常已知的医学图像分析至关重要。然而,当我们尝试在SSL中使用尽可能多的未标记的医学图像时,打破维度屏障(即,使得可以共同使用2D和3D图像)成为必须的。在本文中,我们提出了一个基于学生教师范式的普遍的自我监督变压器(USST)框架,旨在利用大量未标记的医疗数据,以多种维度来学习丰富的代表。为此,我们将金字塔变压器U-NET(PTU)设计为骨干,由可切换贴片嵌入(SPE)层和变压器层组成。 SPE层根据输入维度切换到2D或3D贴片嵌入。之后,无论其原始尺寸如何,图像都被转换为序列。然后,变压器层以序列到序列方式模拟长期依赖性,从而使您能够学习来自2D和3D图像的表示。与当前维度特定的SSL相比,USST有两个明显的优点:(1)\ TextBF {更有效} - 可以从越来越多的数据中学习表示; (2)\ textBF {更多功能} - 可以传输到各种下游任务。结果表明,USST在六个2D / 3D医学图像分类和分割任务中提供了有希望的结果,表现出大量监督的想象式预训练和高级SSL对应。
translated by 谷歌翻译
域间隙主要由可变的医学图像质量引起的构成,这是训练实验室中的分割模型与应用训练的模型在未见临床数据之间的路径上的主要障碍。为了解决这个问题,已经提出了域泛化方法,但是通常使用静态卷积,并且灵活性较低。在本文中,我们提出了一个基于域和内容自适应卷积(DCAC)的多源域概括模型,以分割不同模式的医学图像。具体而言,我们设计了域自适应卷积(DAC)模块和内容自适应卷积(CAC)模块,并将两者都合并到编码器解码器中。在DAC模块中,动态卷积头是根据输入的预测域代码进行的,以使我们的模型适应看不见的目标域。在CAC模块中,动态卷积头在全局图像特征上进行条件,以使我们的模型适应测试图像。我们针对基线的DCAC模型和针对前列腺分割,COVID-19病变分段和视频杯/视盘分段任务的四种最先进的域概括方法评估了DCAC模型。我们的结果不仅表明所提出的DCAC模型在每个分割任务上都优于所有竞争方法,而且还证明了DAC和CAC模块的有效性。代码可在\ url {https://git.io/dcac}上获得。
translated by 谷歌翻译
当前的深层图像超分辨率(SR)方法试图从下采样的图像或假设简单高斯内核和添加噪声中降解来恢复高分辨率图像。但是,这种简单的图像处理技术代表了降低图像分辨率的现实世界过程的粗略近似。在本文中,我们提出了一个更现实的过程,通过引入新的内核对抗学习超分辨率(KASR)框架来处理现实世界图像SR问题,以降低图像分辨率。在提议的框架中,降解内核和噪声是自适应建模的,而不是明确指定的。此外,我们还提出了一个迭代监督过程和高频选择性目标,以进一步提高模型SR重建精度。广泛的实验验证了对现实数据集中提出的框架的有效性。
translated by 谷歌翻译
现有的几次拍摄学习(FSL)方法通常假设基类和新颖类来自同一域(域名设置)。然而,在实践中,为某些特殊域收集足够的训练样本可能是不可行的,以构建基础类别。为了解决这个问题,最近提出了跨域FSL(CDFSL),以将来自普通域库类的知识传输到特殊域新颖类。现有的CDFSL主要关注在域之间传输,虽然很少考虑在遥远的域之间转移,这是任何新颖的类都可以出现在现实世界中的任何新的课程中,并且更具挑战性。在本文中,我们研究了CDFSL的具有挑战性的子集,其中新颖类别通过重新审视中级特征来从基础类别中的遥远域名,在主流FSL工作中更为可转让尚未转换。为了提高中级特征的可辨性,我们提出了一种剩余预测任务,以鼓励中级特征来学习每个样本的辨别信息。值得注意的是,这种机制也使域内FSL和CDFSL达到域附近。因此,我们在相同的训练框架下分别为交叉和域FSL提供两种类型的功能。在六个公共数据集中的两个设置下的实验,包括两个具有挑战性的医疗数据集,验证了我们的理由并展示了最先进的表现。代码将被释放。
translated by 谷歌翻译